Aproximación por difusión para aprendizaje TD con ruido markoviano
Descubre cómo una nueva aproximación mediante ecuaciones diferenciales estocásticas revela el origen del error en el aprendizaje TD(0) con ruido markoviano.
Descubre cómo una nueva aproximación mediante ecuaciones diferenciales estocásticas revela el origen del error en el aprendizaje TD(0) con ruido markoviano.
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Descubre cómo el promedio geométrico de actualizaciones de objetivo duro estabiliza el Q-learning lineal. Un nuevo enfoque para mejorar el aprendizaje por refuerzo.
Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.
Descubre cómo las actualizaciones periódicas y suaves de objetivo garantizan la convergencia del Q-learning lineal, según un riguroso análisis teórico.